智能论文笔记

Source-Free Unsupervised Domain Adaptation: A Survey

Yuqi Fang , Pew-Thian Yap , Weili Lin , Hongtu Zhu , Mingxia Liu

分类：计算机视觉 | 人工智能 | 机器学习

2022-12-31

Unsupervised domain adaptation (UDA) via deep learning has attracted appealing attention for tackling domain-shift problems caused by distribution discrepancy across different domains. Existing UDA approaches highly depend on the accessibility of source domain data, which is usually limited in practical scenarios due to privacy protection, data storage and transmission cost, and computation burden. To tackle this issue, many source-free unsupervised domain adaptation (SFUDA) methods have been proposed recently, which perform knowledge transfer from a pre-trained source model to unlabeled target domain with source data inaccessible. A comprehensive review of these works on SFUDA is of great significance. In this paper, we provide a timely and systematic literature review of existing SFUDA approaches from a technical perspective. Specifically, we categorize current SFUDA studies into two groups, i.e., white-box SFUDA and black-box SFUDA, and further divide them into finer subcategories based on different learning strategies they use. We also investigate the challenges of methods in each subcategory, discuss the advantages/disadvantages of white-box and black-box SFUDA methods, conclude the commonly used benchmark datasets, and summarize the popular techniques for improved generalizability of models learned without using source data. We finally discuss several promising future directions in this field.

translated by 谷歌翻译

GCF: Generalized Causal Forest for Heterogeneous Treatment Effect Estimation in Online Marketplace

Shu Wan , Chen Zheng , Zhonggen Sun , Mengfan Xu , Xiaoqing Yang , Hongtu Zhu , Jiecheng Guo

分类： (统计)机器学习 | 机器学习

2022-03-21

Uplift建模是一种快速增长的方法，它利用因果推理和机器学习方法直接估计异质治疗效果，该效果已广泛应用于各种在线市场，以帮助近年来大规模决策。现有的流行模型，例如因果森林（CF），仅限于离散治疗或对可能遭受模型错误指定的结果处理关系的参数假设。但是，在市场上经常出现连续的治疗（例如，价格，持续时间）。为了减轻这些限制，我们使用基于内核的双重稳健估计器来恢复非参数剂量反应函数，可以灵活地对连续治疗效果进行模拟。此外，我们提出了一个基于距离的分裂标准，以捕获连续处理的异质性。我们称提出的算法广义因果林（GCF）将CF的用例推广到更广泛的环境。我们通过得出估算器的渐近性能，并将其与合成和现实世界数据集的流行隆升建模方法进行比较，从而显示了GCF的有效性。我们在Spark上实施GCF，并成功将其部署到领先的乘车共享公司的大规模在线定价系统中。在线A/B测试结果进一步验证了GCF的优势。

translated by 谷歌翻译

Statistically Efficient Advantage Learning for Offline Reinforcement Learning in Infinite Horizons

Chengchun Shi , Shikai Luo , Yuan Le , Hongtu Zhu , Rui Song

分类： (统计)机器学习 | 机器学习

2022-02-26

我们考虑在离线域中的强化学习（RL）方法，没有其他在线数据收集，例如移动健康应用程序。计算机科学文献中的大多数现有策略优化算法都是在易于收集或模拟的在线设置中开发的。通过预采用的离线数据集，它们对移动健康应用程序的概括尚不清楚。本文的目的是开发一个新颖的优势学习框架，以便有效地使用预采用的数据进行策略优化。所提出的方法采用由任何现有的最新RL算法计算的最佳Q-估计器作为输入，并输出一项新策略，其价值比基于初始Q-得出的策略更快地收敛速度。估计器。进行广泛的数值实验以支持我们的理论发现。我们提出的方法的Python实现可在https://github.com/leyuanheart/seal上获得。

translated by 谷歌翻译

Policy Evaluation for Temporal and/or Spatial Dependent Experiments in Ride-sourcing Platforms

Shikai Luo , Ying Yang , Chengchun Shi , Fang Yao , Jieping Ye , Hongtu Zhu

分类：机器学习 | (统计)机器学习

2022-02-22

基于A/B测试的政策评估引起了人们对数字营销的极大兴趣，但是在乘车平台（例如Uber和Didi）中的这种评估主要是由于其时间和/或空间依赖性实验的复杂结构而被很好地研究。。本文的目的是在乘车平台中的政策评估中进行，目的是在平台的政策和换回设计下的感兴趣结果之间建立因果关系。我们提出了一个基于时间变化系数决策过程（VCDP）模型的新型潜在结果框架，以捕获时间依赖性实验中的动态治疗效果。我们通过将其分解为直接效应总和（DE）和间接效应（IE）来进一步表征平均治疗效应。我们为DE和IE制定了估计和推理程序。此外，我们提出了一个时空VCDP来处理时空依赖性实验。对于这两个VCDP模型，我们都建立了估计和推理程序的统计特性（例如弱收敛和渐近力）。我们进行广泛的模拟，以研究拟议估计和推理程序的有限样本性能。我们研究了VCDP模型如何帮助改善DIDI中各种派遣和处置政策的政策评估。

translated by 谷歌翻译

Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process

Chengchun Shi , Jin Zhu , Ye Shen , Shikai Luo , Hongtu Zhu , Rui Song

分类： (统计)机器学习 | 机器学习

2022-02-22

本文关注的是，基于无限视野设置中预采用的观察数据，为目标策略的价值离线构建置信区间。大多数现有作品都假定不存在混淆观察到的动作的未测量变量。但是，在医疗保健和技术行业等实际应用中，这种假设可能会违反。在本文中，我们表明，使用一些辅助变量介导动作对系统动态的影响，目标策略的价值在混杂的马尔可夫决策过程中可以识别。基于此结果，我们开发了一个有效的非政策值估计器，该估计值可用于潜在模型错误指定并提供严格的不确定性定量。我们的方法是通过理论结果，从乘车共享公司获得的模拟和真实数据集证明的。python实施了建议的过程，请访问https://github.com/mamba413/cope。

translated by 谷歌翻译

A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets

Chengchun Shi , Runzhe Wan , Ge Song , Shikai Luo , Rui Song , Hongtu Zhu

分类： (统计)机器学习 | 机器学习

2022-02-21

乘车共享公司等双面市场通常涉及一组跨时间和/或位置做出顺序决策的主题。随着智能手机和物联网的快速发展，它们实质上改变了人类的运输格局。在本文中，我们考虑了乘车共享公司的大规模车队管理，这些公司涉及随着时间的推移接收产品（或治疗）序列的不同领域的多个单元。在这些研究中出现了主要的技术挑战，例如政策评估，因为（i）空间和时间附近会导致位置和时间之间的干扰；（ii）大量位置导致维度的诅咒。为了同时解决这两个挑战，我们介绍了在这些研究中进行政策评估的多机构增强学习（MARL）框架。我们提出了新的估计量，即在不同产品下的平均结果，尽管州行动空间具有很高的差异性。提出的估计量在模拟实验中有利。我们进一步说明了我们的方法使用从双面市场公司获得的真实数据集来评估应用不同的补贴策略的效果。我们提出的方法的Python实现可在https://github.com/runzhestat/causalmarl上获得。

translated by 谷歌翻译

Reinforcement Learning for Ridesharing: An Extended Survey

Zhiwei Qin , Hongtu Zhu , Jieping Ye

分类：机器学习 | 人工智能

2021-05-03

在本文中，我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面，深入的调查。涵盖了有关乘车匹配，车辆重新定位，乘车，路由和动态定价主题的论文。在过去的几年中，大多数文献都出现了，并且要继续解决一些核心挑战：模型复杂性，代理协调和多个杠杆的联合优化。因此，我们还引入了流行的数据集和开放式仿真环境，以促进进一步的研发。随后，我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。

translated by 谷歌翻译

Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework

Chengchun Shi , Xiaoyu Wang , Shikai Luo , Hongtu Zhu , Jieping Ye , Rui Song

分类：机器学习 | (统计)机器学习

2020-02-05

A / B测试或在线实验是一种标准的业务策略，可以在制药，技术和传统行业中与旧产品进行比较。在双面市场平台（例如优步）的在线实验中出现了主要挑战，其中只有一个单位接受一系列处理随着时间的推移。在这些实验中，给定时间的治疗会影响当前结果以及未来的结果。本文的目的是引入用于在这些实验中携带A / B测试的加强学习框架，同时表征长期治疗效果。我们所提出的测试程序允许顺序监控和在线更新。它通常适用于不同行业的各种治疗设计。此外，我们系统地研究了我们测试程序的理论特性（例如，尺寸和功率）。最后，我们将框架应用于模拟数据和从技术公司获得的真实数据示例，以说明其在目前的实践中的优势。我们的测试的Python实现是在https://github.com/callmespring/causalrl上找到的。

translated by 谷歌翻译

D-GCCA: Decomposition-based Generalized Canonical Correlation Analysis for Multi-view High-dimensional Data

Hai Shu , Zhe Qu , Hongtu Zhu

分类： (统计)机器学习 | 机器学习

2020-01-09

现代生物医学研究通常收集多视图数据，即在同一组对象上测量的多种类型的数据。高维多视图数据分析中的流行模型是将每个视图的数据矩阵分解为跨所有数据视图常见的潜在因子生成的低级常见源矩阵，对应于每个视图的低级别源矩阵和添加剂噪声矩阵。我们提出了一种用于该模型的新型分解方法，称为基于分解的广义规范相关分析（D-GCCA）。与大多数现有方法使用的欧几里德点产品空间相比，D-GCCA严格地定义了随机变量的L2空间的分解，从而能够为低秩矩阵恢复提供估计一致性。此外，为了良好校准共同的潜在因子，我们对独特的潜在因子施加了理想的正交性限制。然而，现有方法不充分考虑这种正交性，因此可能遭受未检测到的共同源变异的大量损失。我们的D-GCCA通过分离规范变量中的共同和独特的组分，同时从主成分分析的角度享受吸引人的解释，进一步逐步进行一步。此外，我们建议使用常见的或独特潜在因子解释的信号方差的可变级别比例，以选择最受影响的变量。我们的D-GCCA方法的一致估计是通过良好的有限样本数性能建立的，并且具有封闭式表达式，导致有效计算，特别是对于大规模数据。 D-GCCA在最先进的方法上的优越性也在模拟和现实世界数据示例中得到证实。

translated by 谷歌翻译

Cluster-guided Contrastive Graph Clustering Network

Xihong Yang , Yue Liu , Sihang Zhou , Siwei Wang , Wenxuan Tu , Qun Zheng , Xinwang Liu , Liming Fang , En Zhu

分类：机器学习

2023-01-03

Benefiting from the intrinsic supervision information exploitation capability, contrastive learning has achieved promising performance in the field of deep graph clustering recently. However, we observe that two drawbacks of the positive and negative sample construction mechanisms limit the performance of existing algorithms from further improvement. 1) The quality of positive samples heavily depends on the carefully designed data augmentations, while inappropriate data augmentations would easily lead to the semantic drift and indiscriminative positive samples. 2) The constructed negative samples are not reliable for ignoring important clustering information. To solve these problems, we propose a Cluster-guided Contrastive deep Graph Clustering network (CCGC) by mining the intrinsic supervision information in the high-confidence clustering results. Specifically, instead of conducting complex node or edge perturbation, we construct two views of the graph by designing special Siamese encoders whose weights are not shared between the sibling sub-networks. Then, guided by the high-confidence clustering information, we carefully select and construct the positive samples from the same high-confidence cluster in two views. Moreover, to construct semantic meaningful negative sample pairs, we regard the centers of different high-confidence clusters as negative samples, thus improving the discriminative capability and reliability of the constructed sample pairs. Lastly, we design an objective function to pull close the samples from the same cluster while pushing away those from other clusters by maximizing and minimizing the cross-view cosine similarity between positive and negative samples. Extensive experimental results on six datasets demonstrate the effectiveness of CCGC compared with the existing state-of-the-art algorithms.

translated by 谷歌翻译